阿尔伯塔计划研究愿景的第二个显著特征可以概括为“时间一致性”。时间一致性意味着对于代理上运行的算法而言,所有时间都是相同的。在训练信息可用或奖励计数多于或少于其他奖励时,不存在特殊的训练期。如果提供训练信息(如通过奖励信号提供),则在每个时间步骤上都会提供。如果代理进行学习或计划,则它会在每个时间步骤上进行学习或计划。如果代理构建自己的表示或子任务,则构建它们的元算法会在每个时间步骤上运行。如果代理可以在环境部分看起来稳定时降低其学习速度,那么当它们开始发生变化时,它也可以在环境部分开始变化时提高其学习速度。我们专注于时间上统一的问题和算法,这使我们对非平稳、持续的环境以及持续学习和元学习的算法产生了兴趣。4
![arXiv:2208.11173v1 [cs.AI] 2022 年 8 月 23 日PDF文件第1页](/bimg/6/6137c20998110b4137bdb65514495c5c4ac2a86b.webp)
![arXiv:2208.11173v1 [cs.AI] 2022 年 8 月 23 日PDF文件第2页](/bimg/a/acfb989c1062278f83262b61e35fda3229c8cd1f.webp)
![arXiv:2208.11173v1 [cs.AI] 2022 年 8 月 23 日PDF文件第3页](/bimg/e/e18d73bf900631bd265ea436eefd0a053b4d8d49.webp)
![arXiv:2208.11173v1 [cs.AI] 2022 年 8 月 23 日PDF文件第4页](/bimg/a/a392c352c539b094320f1756c70159b51e350819.webp)
![arXiv:2208.11173v1 [cs.AI] 2022 年 8 月 23 日PDF文件第5页](/bimg/a/a260c2c75a2bae726cfd05563b72e70f0d2dc51a.webp)
